2020-onlyarxiv-A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels

Arxivにしかないので信頼度はある程度差し置いたほうがいい。

📄2022-CVPR-[Dist-PU] Positive-Unlabeled Learning from a Label Distribution Perspective のMix-upがない版の研究である。これは一応書いたけどDist-PUでOKだが、最後のPseudo Labelの更新だけはモデルの出力するラベル分布予測の移動平均である。

すべてのUにPかNのPseudo Labelを付与して、Noisy Labelの手法を用いて、そのPseudo Labelを更新していくことで最終的に学習器を訓練していく。

最小化する式は以下の通り

本体は以下のようになる。Pに対するloss(これは明確にラベルがPだとわかるので) $L_p$ と、UをNoisy Labelとみなして、sigmoid関数 $f$ でcalibrationした結果がPseudo Labelの連続値の $y_i$ と合致するようにしている。

L_{class}(g) = \lambda L_P(g) + L_U(g) \\ L_P(g) = \mathbb{E}_+[l(g(\mathbf{x}), +1)] \\ L_U(g) = \mathbb{E}_X[D_{KL}(\begin{bmatrix} y_i \\ 1 - y_i \end{bmatrix} || \begin{bmatrix} f(g(x_i^u)) \\ 1 - f(g(x_i^u)) \end{bmatrix} )]

学習を進めるにつれて、 $\lambda$ は大きい値から線形に $1/n_U$ まで減らすらしい。減らさないとこの手法の意味がない。

正則化項は2つ存在する。

まずは、calibrationして予測した結果の平均は、Class Priorと合致させないといけないというもの。これはあとの📄2022-CVPR-[Dist-PU] Positive-Unlabeled Learning from a Label Distribution Perspective とも同じidea。

L_{reg1} = \mathbb{E}_X[D_{KL}( \begin{bmatrix} \pi_P \\ 1 - \pi_P \end{bmatrix} || \begin{bmatrix} f(g(\mathbf{x})) \\ 1 - f(g(\mathbf{x})) \end{bmatrix} )]

次に、この予測結果をばらけさせたいので、Dist-PUと同様に、以下のものをつける。

L_{reg} = \mathbb{E}_X[f(g(\mathbf{x})) \log f(g(\mathbf{x})) + (1 - f(g(\mathbf{x}))) \log (1 - f(g(\mathbf{x})))]

すべてのUについて、初期のPseduo Labelは $y_i = \pi_P$ と一律に設定。これはKL-Divergenceを最小化するもの。

更新については、モデルの過去数エポックの出力したラベル予測分布の平均をPseudo Labelとして更新する。